智能论文笔记

FairGen: Fair Synthetic Data Generation

Bhushan Chaudhari , Himanshu Chaudhary , Aakash Agarwal , Kamna Meena , Tanmoy Bhowmik

分类：机器学习 | 人工智能

2022-10-24

With the rising adoption of Machine Learning across the domains like banking, pharmaceutical, ed-tech, etc, it has become utmost important to adopt responsible AI methods to ensure models are not unfairly discriminating against any group. Given the lack of clean training data, generative adversarial techniques are preferred to generate synthetic data with several state-of-the-art architectures readily available across various domains from unstructured data such as text, images to structured datasets modelling fraud detection and many more. These techniques overcome several challenges such as class imbalance, limited training data, restricted access to data due to privacy issues. Existing work focusing on generating fair data either works for a certain GAN architecture or is very difficult to tune across the GANs. In this paper, we propose a pipeline to generate fairer synthetic data independent of the GAN architecture. The proposed paper utilizes a pre-processing algorithm to identify and remove bias inducing samples. In particular, we claim that while generating synthetic data most GANs amplify bias present in the training data but by removing these bias inducing samples, GANs essentially focuses more on real informative samples. Our experimental evaluation on two open-source datasets demonstrates how the proposed pipeline is generating fair data along with improved performance in some cases.

translated by 谷歌翻译

An Effective, Performant Named Entity Recognition System for Noisy Business Telephone Conversation Transcripts

Xue-Yong Fu , Cheng Chen , Md Tahmid Rahman Laskar , Shashi Bhushan TN , Simon Corston-Oliver

分类：自然语言处理

2022-09-27

我们提出了一种简单而有效的方法，用于培训命名实体识别（NER）模型，该模型在业务电话交易记录上运行，该转录本包含噪音，这是由于口语对话的性质和自动语音识别的工件。我们首先通过有限数量的成绩单微调卢克（Luke），这是一种最先进的命名实体识别（NER）模型弱标记的数据和少量的人类注销数据。该模型可以达到高精度，同时还满足了将包含在商业电话产品中的实际限制：在具有成本效益的CPU而不是GPU上部署时实时性能。

translated by 谷歌翻译

Modern Machine Learning Tools for Monitoring and Control of Industrial Processes: A Survey

R. Bhushan Gopaluni , Aditya Tulsyan , Benoit Chachuat , Biao Huang , Jong Min Lee , Faraz Amjad , Seshu Kumar Damarla , Jong Woo Kim , Nathan P. Lawrence

分类：机器学习

2022-09-22

在过去的十年中，我们看到了工业数据，计算能力的巨大改善以及机器学习的重大理论进步。这为在大规模非线性监控和控制问题上使用现代机器学习工具提供了机会。本文对过程行业的应用进行了对最新结果的调查。

translated by 谷歌翻译

Meta-Reinforcement Learning for Adaptive Control of Second Order Systems

Daniel G. McClement , Nathan P. Lawrence , Michael G. Forbes , Philip D. Loewen , Johan U. Backström , R. Bhushan Gopaluni

分类：机器学习 | 人工智能

2022-09-19

元学习是机器学习的一个分支，旨在将相关任务分布的数据合成以有效地解决新的数据。在过程控制中，许多系统具有相似且充分理解的动力学，这表明可以通过元学习创建可推广的控制器是可行的。在这项工作中，我们制定了一种元加强学习（META-RL）控制策略，该策略利用已知的离线信息进行培训，例如模型结构。对模型参数的分布而不是单个模型，对元RL代理进行了训练，从而使代理能够自动适应过程动力学的变化，同时保持性能。一个关键的设计元素是能够在培训期间离线利用基于模型的信息，同时保持与新环境交互的无模型策略结构。我们以前的工作已经证明了如何将这种方法应用于调整比例综合控制器以控制一阶过程的与工业相关的问题。在这项工作中，我们简要地重新引入了我们的方法，并证明了如何将其扩展到比例综合衍生的控制器和二阶系统。

translated by 谷歌翻译

Combating high variance in Data-Scarce Implicit Hate Speech Classification

Debaditya Pal , Kaustubh Chaudhari , Harsh Sharma

分类：自然语言处理 | 机器学习

2022-08-29

仇恨言语分类一直是自然语言处理中的一个长期问题。但是，即使有许多仇恨言论检测方法，它们通常忽略了许多仇恨言论，因为它们在自然界中是隐含的。开发数据集以协助隐性仇恨言语分类的任务伴随着自己的挑战；困难是语言上的细微差别，改变了构成仇恨言论的定义以及劳动密集型的注释过程。这导致了可用于训练和测试此类系统的数据稀缺，当使用基于参数的变压器模型来解决该问题时，这会引起较高的差异问题。在本文中，我们探讨了各种优化和正则化技术，并开发了一种基于罗伯塔的新型模型，可实现最先进的性能。

translated by 谷歌翻译

SNAP: Efficient Extraction of Private Properties with Poisoning

Harsh Chaudhari , John Abascal , Alina Oprea , Matthew Jagielski , Florian Tramèr , Jonathan Ullman

分类：机器学习

2022-08-25

属性推理攻击使对手可以从机器学习模型中提取培训数据集的全局属性。此类攻击对共享数据集来培训机器学习模型的数据所有者具有隐私影响。已经提出了几种针对深神经网络的财产推理攻击的现有方法，但它们都依靠攻击者训练大量的影子模型，这会导致大型计算开销。在本文中，我们考虑了攻击者可以毒化训练数据集的子集并查询训练有素的目标模型的属性推理攻击的设置。通过我们对中毒下模型信心的理论分析的激励，我们设计了有效的财产推理攻击，SNAP，该攻击获得了更高的攻击成功，并且需要比Mahloujifar Et的基于最先进的中毒的财产推理攻击更高的中毒量。 al。例如，在人口普查数据集上，SNAP的成功率比Mahloujifar等人高34％。同时更快56.5倍。我们还扩展了攻击，以确定在培训中是否根本存在某个财产，并有效地估算了利息财产的确切比例。我们评估了对四个数据集各种比例的多种属性的攻击，并证明了Snap的一般性和有效性。

translated by 谷歌翻译

The Value of Out-of-Distribution Data

Ashwin De Silva , Rahul Ramesh , Carey E. Priebe , Pratik Chaudhari , Joshua T. Vogelstein

分类：机器学习 | 人工智能 | 计算机视觉 | (统计)机器学习

2022-08-23

更多数据有助于我们推广到任务。但是实际数据集可以包含分布（OOD）数据；这可以以异质性的形式出现，例如类内变异性，也可以以时间变化或概念漂移的形式出现。我们在此类问题上展示了一种反直觉现象：任务的概括误差可能是OOD样本数量的非单调函数；少数OOD样品可以改善概括，但是如果OOD样品的数量超出了阈值，则概括误差可能会恶化。我们还表明，如果我们知道哪些样品是OOD，则使用目标和OOD样品之间的加权目标确保概括误差单调减少。我们使用线性分类器在CIFAR-10上的合成数据集和中型神经网络上使用线性分类器演示和分析了此问题。

translated by 谷歌翻译

Generalizable multi-task, multi-domain deep segmentation of sparse pediatric imaging datasets via multi-scale contrastive regularization and multi-joint anatomical priors

Arnaud Boutillon , Pierre-Henri Conze , Christelle Pons , Valérie Burdin , Bhushan Borotikar

分类：计算机视觉

2022-07-27

小儿肌肉骨骼系统的临床诊断依赖于医学成像检查的分析。在医学图像处理管道中，使用深度学习算法的语义分割使人可以自动生成患者特定的三维解剖模型，这对于形态学评估至关重要。但是，小儿成像资源的稀缺性可能导致单个深层分割模型的准确性和泛化性能降低。在这项研究中，我们建议设计一个新型的多任务多任务多域学习框架，在该框架中，单个分割网络对由解剖学的不同部分产生的多个数据集进行了优化。与以前的方法不同，我们同时考虑多个强度域和分割任务来克服小儿数据的固有稀缺性，同时利用成像数据集之间的共享特征。为了进一步提高概括能力，我们从自然图像分类中采用了转移学习方案，以及旨在在共享表示中促进域特异性群集的多尺度对比正则化，以及多连接解剖学先验来执行解剖学上一致的预测。我们评估了使用脚踝，膝盖和肩关节的三个稀缺和小儿成像数据集进行骨分割的贡献。我们的结果表明，所提出的方法在骰子指标中的表现优于个人，转移和共享分割方案，并具有统计学上足够的利润。拟议的模型为智能使用成像资源和更好地管理小儿肌肉骨骼疾病提供了新的观点。

translated by 谷歌翻译

Human-Centric Research for NLP: Towards a Definition and Guiding Questions

Bhushan Kotnis , Kiril Gashteovski , Julia Gastinger , Giuseppe Serra , Francesco Alesiani , Timo Sztyler , Ammar Shaker , Na Gong , Carolin Lawrence , Zhao Xu

分类：自然语言处理

2022-07-10

通过以人为本的研究（HCR），我们可以引导研究活动，以便研究结果对人类利益相关者（例如最终用户）有益。但是，是什么使研究以人为中心为中心？我们通过提供工作定义来解决这个问题，并定义如何将研究管道分为不同的阶段，在这些阶段中可以添加以人为中心的组件。此外，我们使用HCR组件讨论了现有的NLP，并定义了一系列的指导问题，这些问题可以作为有兴趣探索以人为中心的研究方法的研究人员的起点。我们希望这项工作能够激发研究人员完善所提出的定义，并提出其他对实现HCR有意义的问题。

translated by 谷歌翻译

MammoDL: Mammographic Breast Density Estimation using Federated Learning

Keshava Katti , Ramya Muthukrishnan , Angelina Heyler , Sarthak Pati , Aprupa Alahari , Michael Sanborn , Emily F. Conant , Christopher Scott , Stacey Winham , Celine Vachon

分类：计算机视觉 | 机器学习

2022-06-11

评估成像中的乳腺癌风险仍然是一个主观过程，在该过程中，放射科医生采用计算机辅助检测（CAD）系统或定性视觉评估来估计乳房密度（PD）。更先进的机器学习（ML）模型已成为量化早期，准确和公平诊断的乳腺癌风险的最有希望的方法，但是医学研究中的这种模型通常仅限于小型单一机构数据。由于患者人口统计和成像特征可能在成像站点之间有很大差异，因此在单机构数据中训练的模型往往不会很好地概括。为了应对这个问题，提出了Mammodl，这是一种开源软件工具，利用UNET体系结构来准确估计乳腺PD和数字乳房X线摄影（DM）的复杂性。通过开放的联合学习（OpenFL）库，该解决方案可以在多个机构的数据集上进行安全培训。 Mammodl是一个比其前任更精简，更灵活的模型，由于对更大，更具代表性的数据集的支持培训，因此具有改进的概括。

translated by 谷歌翻译